Brecha de fiabilidad en auditoría de benchmarks: cambio de distribución y escala Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha. 2026-06-03 · 1 min